智能论文笔记

这项工作是对对使用Dino训练的自我监督视觉变压器的对抗性攻击的鲁棒性进行的首次分析。首先，我们评估通过自学学历的特征是否比受到监督学习中出现的人更强大。然后，我们介绍在潜在空间中攻击的属性。最后，我们评估了三种著名的防御策略是否可以通过微调分类头来提高下游任务中的对抗性鲁棒性，即使考虑到有限的计算资源，也可以提供鲁棒性。这些防御策略是：对抗性训练，合奏对抗训练和专业网络的合奏。

translated by 谷歌翻译

Thinking Hallucination for Video Captioning

Nasib Ullah , Partha Pratim Mohanta

分类：计算机视觉

2022-09-28

随着丰富的视觉表示和预训练的语言模型的出现，随着时间的推移，视频字幕持续不断改进。尽管性能有所提高，但视频字幕模型还是容易发生幻觉的。幻觉是指与原始材料分离的高度病理描述的产生。在视频字幕中，有两种幻觉：物体和动作幻觉。我们没有努力学习视频的更好代表，而是在这项工作中研究了幻觉问题的基本来源。我们确定了三个主要因素：（i）从预训练模型中提取的视觉特征不足，（ii）多模式融合过程中源和目标环境的影响不当，以及（iii）训练策略中的暴露偏见。为了减轻这些问题，我们提出了两种强大的解决方案：（a）在提取的视觉特征的基础上引入了在多标签设置中训练的辅助头，以及（b）添加上下文门，在融合过程中动态选择特征。视频字幕的标准评估指标衡量与地面真相标题的相似性，并且不能充分捕获对象和动作相关性。为此，我们提出了一个新的指标Coaha（标题对象和动作幻觉评估），该指标评估了幻觉的程度。我们的方法可以在MSR-Video到文本（MSR-VTT）和Microsoft研究视频描述语料库（MSVD）数据集上实现最先进的性能，尤其是通过大量的苹果酒得分。

translated by 谷歌翻译

监督学习可以学习大型代表性空间，这对于处理困难的学习任务至关重要。然而，由于模型的设计，经典图像分类方法争取在处理小型数据集时概括为新的问题和新情况。事实上，监督学习可能失去图像特征的位置，这导致在非常深刻的架构中的监督崩溃。在本文中，我们调查了如何有效地对未标记数据的强大和充分增强的自我监督，可以有效地培训神经网络的第一层，甚至比监督学习更好，无需数百万标记的数据。主要目标是通过获取通用任务 - 不可知的低级功能来断开像素数据与注释的连接。此外，我们调查视觉变形金刚（VIV）并表明，从自我监督架构中得出的低级功能可以提高这种紧急架构的鲁棒性和整体性能。我们在最小的开源数据集STL-10上评估了我们的方法，当从自我监督的学习架构输入到vit而不是原始时，我们获得了从41.66％的显着提升到83.25％。图片。

translated by 谷歌翻译

现代纵向研究在许多时间点收集特征数据，通常是相同的样本大小顺序。这些研究通常受到{辍学}和积极违规的影响。我们通过概括近期增量干预的效果（转换倾向分数而不是设置治疗价值）来解决这些问题，以适应多种结果和主题辍学。当条件忽略（不需要治疗阳性）时，我们给出了识别表达式的增量干预效果，并导出估计这些效果的非参数效率。然后我们提出了高效的非参数估计器，表明它们以快速参数速率收敛并产生均匀的推理保证，即使在较慢的速率下灵活估计滋扰函数。我们还研究了新型无限时间范围设置中的更传统的确定性效果的增量干预效应的方差比，其中时间点的数量可以随着样本大小而生长，并显示增量干预效果在统计精度下产生近乎指数的收益这个设置。最后，我们通过模拟得出结论，并在研究低剂量阿司匹林对妊娠结果的研究中进行了方法。

translated by 谷歌翻译